داخلی
»سخن هفته
ChatGPT یک JPEG کدر و تار از وب است ! ! ! !
لیزنا؛ سیدابراهیم عمرانی، سردبیر: ترجمهای که تقدیم میشود، تکملهای است بر سخن هفته همین هفته (اول اسفند 1401) است.
زمانی که مقاله دکتر خسروی با عنوان مانایی را می خواندم، فکر کردم که زمان واکسیناسیون نوبت دوازدهم است و باید برای دوزادهمین سال متوالی یک سوزن به خودمان بزنیم. مقالهای در مورد چت جیپی تی خوانده بودم و مقاله دکتر خسروی مرا بر آن داشت که صحبت ایشان را ادامه دهم. بنابراین در شبکه به دنبال این ربات پاسخگو و ارتباطش با کتابداران گشتم و واقعا قصد زدن سوزن به خودمان را داشتم و نوشتم عزیزان این ربات آمده، با همه اشکالاتش، ولی این اشکالات رفع میشود، خوب حالا نه؟ پنج سال دیگر چه می خواهید بکنید؟ آیا واقعا کتابداری از دست رفته است؟ و اگر اینطور است بزرگان بیایند بنشینند، و مطالعه کنند و بگویند چه کنیم که تعدادی تحصیلکرده بیکار به بیکاران کشور اضافه نکنیم، و بچهها را به جهتی ببریم که نگرانی از آینده به حد اقل برسد. این کار مستلزم تحقیق جامعی است که باید تیمی از خبرگان دلسوز را کنار هم جمع کند و همه مدارس و گروههای علوم اطلاعات ISchools دنیا را بررسی کنند و ببیند جهتگیری چیست؟
همین الآن در ایران جوانان بسیار خوبی داریم که خودشان راههای خوبی برای گذار از این دوران یافته و مشغول هستند که با اجازه نام نبرم، که ممکن است کسی از قلمم بیفتد و باعث شرمندگی شود، لیکن در میان چندین هزاران دانش آموخته موجود درصد کمی را تشکیل میدهند، و باید از اینها نیز کمک گرفت، و ساختار را اصلاح و به روز کرد.
بعد از جستجو در شبکه به مقاله ای که در سخن هفته این هفته معرفی کردم آیا دوران کتابداران به سر رسیده است؟
و مقاله بسیار خوب دیگری از مجله مشهور NewYorker رسیدم، که تصمیم گرفتم ابتدا سخن هفته را منتشر کنم و بعد از یکی دو روز این مقاله را هم به عنوان تکمیل کننده تقدیم حضورتان کنم. نویسنده مقاله تد چیانگ Ted Chiang، یک امریکایی احتمالا چینی تبار است. تد چیانگ نویسنده و برنده جوایز داستانهای علمی تخیلی متعددی است.
قبل از ورود به مقاله به تعریف دو اصطلاح که مبنای ChatGPTبر آن بنا نهاده شده می پردازم:
GPTمخفف چه؟ و LLM چیست؟ دو تکنولوژی که Chat GPT از آنها ساخته می شود.
GPT یا Guide Partition Table در سال 2010 به عنوان بخشی از میان افزار UEFI[1] معرفی شد که در سیستم های جدید وجود دارد. GPT نسخه به روز تر و پیشرفته تر MBR[2] است که روی میان افزار UEFI کار می کند و به نوعی زیرمجموعهای از آن است. برتری های زیادی در GPT نسبت به MBR :نام برده میشود ، برای نمونه: در MBR اطلاعات پارتیشن ها و بوت سیستم فقط در یک پارتیشن ذخیره می شود و اگر این اطلاعات از بین برود یا دچار مشکل شود، سیستم عامل اجرا نمی شود. در GPT از این اطلاعات در چند پارتیشن و در سرورهای مختلف ذخیره می شود و اگر اطلاعات اصلی دچار مشکل شود، اطلاعات یک اپ به صورت خودکار جایگزین قرار می گیرد. حال با استفاده از این تکنولوژی و بردن کل اطلاعات وب روی سرورها و پارتیشن های مختلف، با استفاده از تکنولوژی Large Language Models یا “مدل زبانی بزرگ” کلماتی و عباراتی را با وزن دهی کنار هم می گذارد و تقدیم پرسش کننده مینماید.
Large language models مدل زبانی بزرگ
مدل زبانی بزرگ، توزیع مبتنی براحتمال بر روی توالی کلمات است. با توجه به هر گونه توالی کلمات به طول m، در یک مدل زبانی، یک احتمال P را به کل آن توالی اختصاص می دهد. مدلهای زبانی احتمالاتی را با تکنیکهای یادگیری ماشین، برای ایجاد بر روی پیکرههای متنی در یک یا چند زبان به ماشین آموزش میدهند.
ChatGPT یک JPEG کدر و تار از وب است
ربات گفتگوی OpenAI عبارتها را ارائه میکند، در حالی که Google نقل قولها رادر اختیار می گذارد. کدام را ترجیح می دهیم؟
در سال 2013، کارکنان یک شرکت ساختمانی آلمانی متوجه چیز عجیبی در مورد دستگاه فتوکپی زیراکس خود شدند: زمانی که یک کپی از پلان یک خانه تهیه کردند، متوجه شدند کپی آن به طرز ظریف اما قابل توجهی با اصل تفاوت دارد. در پلان طبقه اول بنا، هر یک از سه اتاق خانه با یک مستطیل همراه بود که مساحت آن را مشخص می کرد: اتاق ها به ترتیب 14.13- 21.11 و 17.42 متر مربع بودند. با این حال، در فتوکپی، هر سه اتاق به اندازه 14.13 متر مربع برچسب خورده بودند. این شرکت با یک متخصص کامپیوتر، دیوید کریزل، تماس گرفت تا این نتیجه به ظاهر عجیب و غیرقابل قبول را بررسی کند. آنها به این دلیل به یک متخصص خبره کامپیوتر نیاز داشتند چون یک دستگاه فتوکپی زیراکس مدرن از فرآیند فیزیکی زیروگرافی که در دهه 1960 رایج شده بود استفاده نمیکند. در عوض، سند را به صورت دیجیتالی اسکن می کند و سپس فایل تصویر حاصل را چاپ میکند. این را با این واقعیت در نظر بگیرید که تقریباً هر فایل تصویر دیجیتالی فشرده میشود تا در فضا صرفهجویی شود، و راهحلی برای باز کردن کدهای این فشرده سازی و بازنمایی فایل باید ارائه شود.
فشردهسازی یک فایل به دو مرحله نیاز دارد: اول، رمزگذاری، که طی آن فایل به فرمت فشردهتری تبدیل میشود، و سپس رمزگشایی، که طی آن فرآیند معکوس میشود. اگر فایل بازیابی شده با فایل اصلی یکسان باشد، فرآیند فشرده سازی به عنوان قالب "فشرده سازی بدون اتلاف") loosless compression format ( توصیف می شود: به این معنی که هیچ اطلاعاتی از دست نرفته است. در مقابل، اگر فایل بازیابی شده فقط فایل بسیار نزدیک به فایل اصلی باشد، فشردهسازی بهعنوان قالب یا فرمت فشردهسازی همراه با اتلاف (loosy compression format) توصیف میشود: در این نوع فشرده سازی برخی از اطلاعات کنار گذاشته شدهاند و اکنون غیرقابل بازیابی هستند. "فشردهسازی بدون اتلاف" چیزی است که معمولاً برای فایلهای متنی و برنامههای رایانهای استفاده میشود، زیرا آنها حوزههایی هستند که حتی یک کاراکتر نادرست در آنها میتواند فاجعهبار باشد. "فشرده سازی با اتلاف" اغلب برای عکس ها، صداها و ویدئوها در شرایطی که دقت مطلق ضروری نیست استفاده می شود. اغلب اوقات، ما متوجه نمی شویم که یک عکس، آهنگ یا فیلم به طور کامل بازتولید نشده باشد. وفادار نماندن به اصل، تنها زمانی محسوستر می شود که فایل ها به شدت فشرده میشوند. در این موارد، ما متوجه مسایلی میشویم که به عنوان ساختهها یا مصنوع های فشردهسازی شناخته میشوند: تیرگی و تصاویر ضعیف JPEG، MPEG، یا صدای ضعیف MP3های با میزان بیت پایین از همین نوع هستند.
دستگاه های فتوکپی زیراکس از “فرمت فشرده سازی با اتلاف" (lossy compression format) به نام jbig2 استفاده میکنند که برای استفاده با تصاویر سیاه و سفید طراحی شده است. برای صرفه جویی در فضا، دستگاه کپی نواحی شبیه به هم را در تصویر شناسایی میکند و یک کپی را برای همه آنها ذخیره می کند. هنگامی که فایل از حالت فشرده خارج می شود، از آن کپی، مکررا برای بازسازی تصویر استفاده می کند. در بررسی مساله بالا، مشخص شد که دستگاه فتوکپی برچسبهایی را که مساحت اتاقها را مشخص میکنند به اندازه هم و مشابه ارزیابی کرده و فقط یکی از آنها را ذخیره میکند ( 14.13 ) و هنگام چاپ پلان طبقه، از آن یکی برای هر سه اتاق استفاده مجدد مینماید.
این واقعیت که دستگاه های فتوکپی زیراکس از “فرمت فشرده سازی با اتلاف” به جای "الگوریتم فشرده سازی بدون اتلاف" (lossless compression algorithm) استفاده می کنند، به خودی خود یک مشکل نیست. مشکل این است که دستگاههای فتوکپی به شیوهای ظریف تصویر را تخریب میکردند، که در آن آثار فشردهسازی فوراً قابل تشخیص نبودند. اگر دستگاه فتوکپی به سادگی پرینتهای کدر و تار تولید میکرد، همه میدانستند که آنها بازتولید دقیقی از نسخههای اصلی نیستند. آنچه منجر به مشکلات شد این واقعیت بود که دستگاه فتوکپی اعدادی را تولید میکرد که خوانا اما نادرست بودند. این باعث شد کپی ها درست به نظر برسند در حالی که درست نبودند. (در سال 2014، زیراکس یک وسیله(Patch) برای اصلاح این مشکل تولید و منتشر کرد.
من فکر میکنم که باید این اتفاق با دستگاه فتوکپی زیراکس را به خوبی در نظر و در یاد نگاه داریم، زیرا ChatGPT تولید شرکتOpen AI و سایر برنامههای مشابه را که پژوهشگران هوش مصنوعی "مدل های زبانی بزرگ" (LLM) می نامند را می خواهیم بررسی کنیم. بین یک دستگاه فتوکپی و یک "مدل زبانی بزرگ" ممکن است در وهله اول شباهتی دیده نشود، اما سناریوی زیر را در نظر بگیرید. تصور کنید که برای همیشه دسترسی خود به اینترنت را از دست می دهید. در مرحله آماده سازی، قصد دارید یک کپی فشرده از تمام متن موجود در وب ایجاد کنید تا بتوانید آن را در یک سرور خصوصی ذخیره کنید.
متأسفانه سرور خصوصی شما تنها یک درصد از فضای مورد نیاز را دارد. اگر می خواهید همه چیز متناسب باشد، نمی توانید از الگوریتم فشرده سازی بدون اتلاف استفاده کنید. در عوض، شما یک الگوریتم فشرده سازی با اتلاف می نویسید که نظم های آماری را در متن شناسایی میکند و آنها را در یک فرمت فایل تخصصی ذخیره می کند. از آنجایی که شما تقریباً قدرت محاسباتی نامحدودی برای درگیر شدن با این کار دارید، الگوریتم شما میتواند قوانین آماری بسیار ظریف را شناسایی کند و این به شما امکان میدهد به نسبت تراکم مطلوب صد به یک دست یابید.
با این کار، از دست دادن دسترسی به اینترنت چندان وحشتناک به نظر نمیرسد. شما تمام اطلاعات موجود در وب را در سرور خود ذخیره کرده اید. تنها نکته این است که، چون متن بسیار فشرده شده است، نمی توانید با جستجوی یک نقل قول دقیق به دنبال اطلاعات بگردید. شما هرگز مطابقت دقیقی نخواهید داشت، زیرا کلمات آن چیزی نیستند که ذخیره می شوند. برای حل این مشکل، یک رابط ایجاد میکنید که پرسوجوها را در قالب سؤال میپذیرد و با پاسخهایی پاسخ میدهد که اصل چیزهایی را که روی سرور خود دارید نشان میدهد.
آنچه من توضیح دادم بسیار شبیه ChatGPT یا بیشتر مدل های زبانی بزرگ دیگر است. . ChatGPTرا به عنوان یک JPEG کدر و تار از تمام متن های وب در نظر بگیرید. بسیاری از اطلاعات موجود در وب را حفظ می کند، همانطور که یک JPEG بسیاری از اطلاعات یک تصویر با وضوح بالاتر را حفظ می کند، اما، اگر به دنبال توالی دقیقی از بیت ها باشید، آن را پیدا نمیکنید. تنها چیزی که به دست می آورید یک تقریب است. اما، از آنجایی که تقریب به شکل متن دستوری ارائه می شود، که ChatGPT در ایجاد آن قدرت بالایی دارد، معمولاً قابل قبول است. شما همچنان به یک JPEG کدر نگاه میکنید، اما کدری به گونهای رخ میدهد که تصویر کلی برا ا وضوح نسبتا خوبی نشان میدهد.
این تشبیه به "فشرده سازی با اتلاف" تنها راهی برای درک امکانات ChatGPT در بسته بندی مجدد اطلاعات موجود در وب با استفاده از کلمات مختلف نیست. این موضوع همچنین راهی برای درک "توهمات" یا پاسخ های بی معنی به سوالات واقعی است که مدل های زبان بزرگ مانند ChatGPT بسیار مستعد آن هستند. این توهمات نتیجه فشرده سازی هستند، اما مانند برچسب های نادرست تولید شده توسط دستگاه فتوکپی زیراکس، به اندازه کافی قابل قبول هستند که شناسایی آنها مستلزم مقایسه آنها با نمونههای اصلی باشد، که در این مورد به معنای وب یا دانش خود ما از جهان است. وقتی اینگونه در مورد آنها فکر می کنیم، چنین عجایبی چیزی جز توهم نیستند. اگر یک الگوریتم فشردهسازی برای بازسازی متن پس از حذف نود و نه درصد متن اصلی طراحی شود، باید انتظار داشته باشیم که بخشهای قابلتوجهی از آنچه تولید میکند کاملاً بازسازی شده باشد (میتوانسته با کلمات موجود، خودش متن تازه ای تا حدودی نزدیک به متن اصلی تولید کرده باشد).
این قیاس، زمانی منطقی تر به نظر می رسد که به یاد آوریم که با تکنیک رایجی که در"الگوریتمهای فشردهسازی با اتلاف" استفاده میشود، بطور یقین عبارات یا کلماتی حذف یا اضافه میشود. یعنی تخمین چیزی که از دست رفته با نگاه کردن به آنچه در دو طرف شکاف وجود دارد، منطقیتر میشود. هنگامی که یک برنامه تصویری در حال نمایش یک عکس است و باید پیکسلی را که در طی فرآیند فشرده سازی از بین رفته است بازسازی کند، به پیکسل های نزدیک نگاه می کند و میانگین را محاسبه می کند. این همان کاری است که ChatGPT وقتی از او خواسته میشود که مثلاً گم شدن یک جوراب در خشککن را با استفاده از سبک اعلامیه استقلال امریکا توصیف کند، انجام میدهد: گرفتن دو نقطه در «فضای واژگانی» و ایجاد متنی که مکان بین آنها را اشغال کند. (نتیجه این میشود که: "زمانی که در جریان رویدادهای انسانی، برای حفظ پاکیزگی و نظم آن، لازم است که فرد لباسهای خود را از همسرش جدا کند...") سرگرم کننده است: آنها به جای عکس، یک ابزار "کدر" برای پاراگراف ها کشف کرده اند و از بازی کردن با آن لذت می برند.
با وجود اینکه مدل های زبانی بزرگ مانند ChatGPT اغلب به عنوان لبه فناوری هوش مصنوعی مورد تمجید قرار می گیرند، ممکن است به آنها به عنوان "الگوریتم های فشرده سازی با اتلاف"، نگاه شود و تواناییهای آن نادیده انگاشته شود – یا حداقل ارزش کمتری برای آن قائل شوند. من فکر میکنم که با این نگاه انتقادی، امکانات و اصلاحات مفیدی دنبال خواهد شد تا" مدلهای زبانی بزرگ" به سمت شباهتهای بیشتری با هوش انسانی حرکت کنند، اما جنبه دیگری از فشردهسازی وجود دارد که ارزش بررسی دارد. از سال 2006، یک محقق هوش مصنوعی به نام مارکوس هاتر به هر کسی که بتواند یک عکس فوری یک گیگابایتی خاص از ویکیپدیا را کوچکتر از برنده قبلی جایزه، و البته با خطای کمتر فشرده کند، جایزه نقدی - معروف به جایزه فشردهسازی دانش بشری یا جایزه هاتر (Hutter) – می دهد.
احتمالاً با فایل هایی که با فرمت فایل زیپ Zip فشرده شده اند مواجه شده اید. فرمت zip فایل یک گیگابایتی Hutter را به حدود سیصد مگابایت کاهش می دهد. آخرین برنده جایزه توانسته است آن را به صد و پانزده مگابایت کاهش دهد. این فقط یک تمرین برای مسابقه نیست. هاتر معتقد است که فشردهسازی بهتر متن، در ایجاد "هوش مصنوعی در سطوح هوش انسانی" مؤثر است، به این دلیل که میتوان با درک درست متن به بیشترین درجه فشردهسازی دست یافت.
برای درک رابطه پیشنهادی بین فشرده سازی و درک مطلب، تصور کنید که یک فایل متنی حاوی میلیون ها مثال از جمع، تفریق، ضرب و تقسیم دارید. اگرچه هر الگوریتم فشردهسازی میتواند حجم این فایل را کاهش دهد، اما راه دستیابی به بیشترین نسبت فشردهسازی احتمالاً استخراج اصول حساب و سپس نوشتن کد یک برنامه ماشین حساب است. با استفاده از یک ماشین حساب، میتوانید نه تنها میلیونها مثال موجود در فایل، بلکه هر نمونه دیگری از محاسباتی را که ممکن است در آینده با آن مواجه شوید، کاملاً بازسازی کنید. همین منطق در مورد مشکل فشرده سازی یک برش از ویکی پدیا نیز صدق می کند. اگر یک برنامه فشردهسازی بداند که نیرو برابر است با جرم ضربدر شتاب، میتواند هنگام فشردهسازی صفحات مربوط به فیزیک، کلمات زیادی را کنار بگذارد، زیرا قادر به بازسازی آنها خواهد بود. به همین ترتیب، هرچه برنامه اطلاعات بیشتری در مورد عرضه و تقاضا داشته باشد، می تواند کلمات بیشتری را هنگام فشرده سازی صفحات مربوط به اقتصاد و غیره کنار بگذارد.
مدل های زبانی بزرگ، نظم های آماری را در متن شناسایی می کنند. هر گونه تجزیه و تحلیل از متن وب نشان می دهد که عباراتی مانند "عرضه کم است" اغلب در مجاورت عباراتی مانند "افزایش قیمت ها" ظاهر می شوند. یک ربات چت که این همبستگی را درست محاسبه میکند، ممکن است وقتی سوالی در مورد تأثیر کمبود عرضه پرسیده شود، با پاسخی در مورد افزایش قیمت ها پاسخ دهد. اگر یک مدل زبانی بزرگ تعداد زیادی از همبستگیها را بین اصطلاحات اقتصادی جمعآوری کرده باشد - آنقدر زیاد که میتواند پاسخهای قابل قبولی را به سؤالات مختلف ارائه دهد - آیا باید بگوییم که واقعاً نظریه اقتصادی را درک میکند؟ مدلهایی مانند ChatGPT به دلایل مختلفی واجد شرایط دریافت جایزه Hutter نیستند، یکی از آنها این است که متن اصلی را دقیقا بازسازی نمیکنند، یعنی "فشردهسازی بدون اتلاف" انجام نمیدهند. اما آیا این امکان وجود دارد که "فشرده سازی با اتلاف" آنها نشان دهنده درک واقعی از نوعی باشد که محققان هوش مصنوعی علاقه مند و به دنبال آن هستند؟
بیائید به مثال حساب برگردیم.. اگر از GPT-3(مدل زبانی بزرگی که ChatGPT از آن ساخته شده است) بخواهید دو عدد را جمع یا تفریق کند، تقریباً همیشه زمانی که اعداد فقط دو رقمی باشند، پاسخ صحیح را می دهد. اما دقت آن با اعداد بزرگتر به طور قابل توجهی بدتر می شود و زمانی که اعداد پنج رقمی هستند به ده درصد کاهش می یابد. بیشتر پاسخهای صحیحی که GPT-3 میدهد در وب یافت نمیشوند. علیرغم دریافت حجم وسیعی از اطلاعات، قادر به استخراج اصول حساب و محاسبه نیست. بررسی دقیق پاسخهای نادرست GPT-3 نشان میدهد که هنگام انجام محاسبات، «1» را ندارد. وب قطعا حاوی توضیحاتی در مورد "1" است، اما GPT-3 قادر به ترکیب این توضیحات نیست. تجزیه و تحلیل آماری GPT-3 از مثالهای محاسباتی، آن را قادر میسازد تا یک تقریب سطحی از چیز واقعی ایجاد کند، اما نه بیشتر از آن.
با توجه به شکست GPT-3 در موضوعی که در مدرسه ابتدایی تدریس میشود، چگونه میتوانیم این واقعیت را توضیح دهیم که گاهی اوقات به نظر میرسد در نوشتن مقالات در سطح دانشگاه عملکرد خوبی دارد؟ اگرچه مدلهای زبان بزرگ اغلب ابهام و اشتباه دارند، اما آنجا که شفاف و درست پاسخ میدهند به نظر میرسد که واقعاً موضوعاتی مانند نظریه اقتصادی را درک میکنند. شاید محاسبات یک مورد خاص باشد که مدل های زبانی بزرگ برای آن مناسب نیستند. آیا این امکان وجود دارد که در حوزههای خارج از جمع و تفریق، قوانین آماری در متن، با دانش واقعی دنیای واقعی مطابقت داشته باشند؟
من فکر می کنم توضیح ساده تری وجود دارد. تصور کنید اگر ChatGPT یک الگوریتم بدون اتلاف باشد، چه شکلی به نظر می رسد. اگر چنین بود، همیشه با ارائه یک نقل قول از یک صفحه وب مرتبط به سؤالات پاسخ می داد و ما احتمالاً نرم افزار را یک سیستم با پیشرفتی نسبی، نسبت به یک موتور جستجوی معمولی تلقی میکردیم و کمتر تحت تأثیر آن قرار می گرفتیم. این واقعیت که ChatGPT مطالب را از وب بهجای نقل قول کلمه به کلمه بازنویسی میکند، به نظر میرسد که دانشآموزی ایدههای خود را با کلمات خود بیان میکند، نه اینکه صرفاً آنچه را که خوانده است بازگو کند. در نتیجه این توهم را ایجاد می کند که ChatGPT مطالب را درک می کند. در دانش آموزان انسانی، حفظ کردن مطلب نشانهای برای یادگیری واقعی نیست، بنابراین ناتوانی ChatGPT در تولید نقل قول های دقیق از صفحات وب دقیقاً همان چیزی است که ما را به این فکر میاندازد که آیا چیزی یاد گرفته است؟ وقتی با توالی کلمات سروکار داریم، فشرده سازی با اتلاف هوشمندتر از فشرده سازی بدون تلفات به نظر می رسد.
کاربردهای زیادی برای مدلهای زبانی بزرگ پیشنهاد شده است. نگاه به آنها به عنوان JPEGهای کدر خود راهی برای ارزیابی مواردی است که ممکن است درست یا نامناسب باشند. در اینجا میخواهیم چند سناریو را در نظر بگیریم.
آیا مدل های زبانی بزرگ می توانند جای موتورهای جستجوی سنتی را بگیرند؟ برای اینکه اطمینان خود را نشان دهیم، باید بگوئیم و بدانیم که آنها با تبلیغات و فریبهای تجاری ساخته نشده و محتوای دروغین به آنها داده نشده است - باید بدانیم که JPEG بخشهای مناسبی از وب را به تصویر میکشد. اما، حتی اگر یک مدل زبانی بزرگ فقط شامل اطلاعاتی باشد که ما میخواهیم، باز هم موضوع کدری وجود دارد. یک نوع کدری قابل قبول وجود دارد که عبارت است از بیان مجدد اطلاعات در قالبهای زبانی مختلف. ولی در جاهایی آشکارا عبارتها و پاسخهای ساختگی وجود دارد که وقتی به دنبال پاسخهای دقیق و حقیقی هستیم آن پاسخها برایمان غیر قابل قبول است. بطور واضح مشخص نیست که از نظر فنی آیا امکان حفظ بخش کدر و تاری قابل قبول و حذف نوع غیرقابل قبول وجود دارد یا نه، البته من انتظار دارم که در آینده نزدیک متوجه این موضوع شویم.
حتی اگر بتوان مدلهای زبانی بزرگ را از درگیر شدن در ساختن (مصنوعی و غیر هوشمندانه پاسخها) ، محدود کرد، آیا باید از آنها برای تولید محتوای وب استفاده کنیم؟ این تنها در صورتی منطقی خواهد بود که هدف ما بسته بندی مجدد اطلاعاتی باشد که از قبل در وب در دسترس بوده است. شرکتهای مختلفی برای انجام این کار وجود دارند که ما معمولا آنها را کارخانه تولید محتوا می نامیم. شاید کدری مدلهای زبانی بزرگ برای آنها خیلی سودمند باشد، چون راهی برای دور زدن کپی رایت و تقلب با ظاهر قانونی خواهد بود. با این حال، به طور کلی، میتوانم بگویم که همه آن چه برای این کارخانههای تولید محتوا سودمند و خوب است، برای افرادی که به دنبال اطلاعات واقعی هستند خوب نیست. افزایش این نوع بسته بندی مجدد عبارات چیزی است که یافتن آنچه را که در حال حاضر آنلاین به دنبال آن هستیم برای ما دشوارتر می کند. هر چه متن تولید شده توسط مدل های زبانی بزرگ بیشتر در وب منتشر شود، وب به نسخهای پرابهام تر از آنچه هم اکنون هست تبدیل می شود. (چنان اطلاعا ت درست و اطلاعات کدر (بخوانید مبهم) در هم میشود که تشخیص آن برای همه مشکل ایجاد خواهد کرد).
اطلاعات بسیار کمی در مورد جانشین آینده و ChatGPTنسل بعدی محصول OpenAI ، یعنی GPT-4 در دسترس است. اما من یک نکته را پیشبینی میکنم: هنگام جمعآوری متنها و مطالب جدید و حتما بسیار بیشتر برای استفاده در آموزش GPT-4، متخصصان و دانشمندان OpenAI تمام تلاش خود را برای حذف مطالب تولید شده توسط ChatGPT یا هر مدل زبانی بزرگ دیگری به کار خواهند گرفت. و اگر پیش بینی من درست باشد، تاییدی است بر این که تناسب بین "مدل های زبانی بزرگ" و "فشرده سازی با اتلاف" بسیار مهم و موثر می تواند باشد. ذخیرهسازی مجدد و مکرر یک JPEG باعث ایجاد فشرده سازی دست ساخته و مصنوع بیشتری می شود، زیرا هر بار اطلاعات بیشتری از دست می رود. این معادل فتوکپی مکرر از فتوکپی در روزهای قدیم است. کیفیت تصویر در هر مرحله بدتر می شود.
در واقع، یک شاخص سودمند برای سنجش کیفیت یک مدل زبانی بزرگ میتواند استفاده از متنهای گسترده و صحیحی باشد که به عنوان ماده آموزشی برای یادگیری ماشین در یک مدل جدید توسط یک شرکت استفاده میشود. اگر خروجی ChatGPT برای GPT-4 به اندازه کافی خوب نباشد، ممکن است آن را به عنوان یک شاخص در نظر بگیریم که برای ما نیز به اندازه کافی خوب نخواهد بود. برعکس، اگر برای این مدل جدید شروع به تولید متنهای خوب کنند که بتوان از آن برای آموزش مدلهای جدید استفاده کرد، باید به کیفیت آن مدل اعتماد کنیم. (من گمان میکنم که چنین نتیجهای مستلزم پیشرفت بزرگی در تکنیکهای مورد استفاده برای ساخت این مدلها باشد.) اگر و زمانی که ما شروع به دیدن مدلهایی کنیم که خروجیهایی به اندازه ورودی آنها تولید میکنند، آنگاه قیاس فشردهسازی با اتلاف دیگر قابل تامل نخواهد بود.
آیا مدل های زبانی بزرگ می توانند به انسان در ایجاد نوشتارهای بنیادی و اصیل کمک کنند؟ برای پاسخ به آن، باید منظورمان از این سوال را مشخص کنیم. ژانری از هنر وجود دارد که به هنر زیراکس یا هنر فتوکپی معروف است که در آن هنرمندان از ویژگیهای متمایز دستگاه فتوکپی به عنوان ابزار خلاقانه استفاده میکنند. مطمئناً چیزی در حدود همین کار با دستگاه فتوکپی که ChatGPT است. آیا این کار امکان پذیر است، از یک نگاه، پاسخ مثبت است. اما فکر نمیکنم کسی ادعا کند که دستگاه فتوکپی به ابزاری ضروری در خلق هنر تبدیل شده است. اکثریت قریب به اتفاق هنرمندان از فتوکپیها در فرآیند خلاقیت خود استفاده نمیکنند، و هیچ کس استدلال نمیکند که با این انتخاب چیزی را از دست میدهند.
بنابراین بیایید فرض کنیم که ما در مورد گونه یا ژانر جدیدی از نوشتن که مشابه هنر زیراکس است صحبت نمی کنیم. با توجه به این شرط، آیا متن تولید شده توسط مدلهای زبانی بزرگ میتواند نقطه شروع مفیدی برای نویسندگان باشد تا در هنگام نوشتنِ متنی اصیل و بنیادی از آن استفاده کنند، چه داستانی یا غیرداستانی؟ آیا استفاده از نقطه شروع های ایجاد شده توسط یک مدل زبانی بزرگ به نویسندگان اجازه می دهد تا توجه خود را بر روی بخش های واقعا خلاقانه کارشان متمرکز کنند؟
بدیهی است که هیچ کس نمی تواند به جای همه نویسندگان صحبت کند، اما اجازه دهید این بحث را مطرح کنم که شروع با یک کپی مبهم و کدر از اثری غیراصیل، راه خوبی برای خلق اثر اصیل نیست. اگر نویسنده هستید، قبل از اینکه چیزی اصیل بنویسید، کارهای غیر اصیل (به زبان عامه بگوئیم، چرکنویس، یا نسخههای پیشنویس و یادداشتهای پراکنده) زیادی خواهید نوشت. و زمان و تلاشی که صرف آن کار چرکنویسها و متون اولیه شده است، هرگز هدر نمیرود. برعکس، من پیشنهاد میکنم که این دقیقاً همان کاری است که شما باید بکنید و این چرکنویسها شما را قادر میسازد در نهایت چیزی اصیل خلق کنید. ساعتهایی که صرف انتخاب کلمه مناسب و تنظیم مجدد جملات برای دنبال هم قراردادن دقیقتر و زیباتر آنها میشود، چیزی است که به شما میآموزد که چگونه معنا با نثر بهتری منتقل میشود. انشا نویسی و مقاله نویسی دانش آموزان مدرسه ای کار تحقیقی نیست و برای درک آنها از مطالب نیست. بلکه به آنها تجربه در بیان افکارشان را میآموزد. اگر دانشآموزان هرگز مجبور نباشند انشاهایی بنویسند که همه ما قبلاً خواندهایم، هرگز مهارتهای لازم برای نوشتن چیزی را که ما هرگز نخواندهایم به دست نخواهند آورد.
و اینطور نیست که پس از پایان دوران مدرسه و دانشآموزی، بتوانید با خیال راحت از الگویی که یک مدل زبانی بزرگ به شما می دهد استفاده کنید. تلاش برای بیان افکارتان پس از فارغالتحصیلی از بین نمیرود، هر بار که شروع به تهیه پیشنویس یک قطعه جدید میکنید، همه مراحل (چرکنویس و پیش نویس و ....) دوباره باید تکرار شوند. گاهی اوقات فقط در مرحله نوشتن است که ایده های اصلی خود را کشف می کنید. برخی ممکن است بگویند که خروجی مدلهای زبانی بزرگ با پیشنویس اول یک نویسنده انسانی تفاوت چندانی ندارد، اما، باز هم، فکر میکنم این یک شباهت سطحی است. اولین پیش نویس شما ایده ای غیراصیل نیست که به روشنی و دقیق بیان شده باشد، آن چرکنویس یا ایده اولیه یک ایده اصیل است که هنوز ضعیف است، و شاید از شمایلش ناراضی باشید ولی باید آگاه باشید که این نوشته اولیه ولی اصیل و حتی ضعیف، آن چیزی است که الآن در دست دارید و با آنچه می خواهید بگویید فاصله دارد، و این آگاهی همان چیزی است که شما را در حین بازنویسی هدایت می کند، و یکی از چیزهایی است که وقتی با متن تولید شده توسط هوش مصنوعی شروع می کنید، فاقد آن هستید.
هیچ چیز جادویی یا اسرارآمیز در مورد نوشتن وجود ندارد، اما هر چه هست بسیار فراتر از قرار دادن یک برگ نوشته روی یک دستگاه فتوکپی غیرقابل اعتماد و فشار دادن دکمه چاپ است. این امکان وجود دارد که در آینده برنامه ای با هوش مصنوعی بسازیم که قادر به نوشتن نثر خوبی بر اساس چیزی از تجربه خود از جهان شود. روزی که به این سطح از موفقیت دست یابیم واقعاً روز مهمی خواهد بود، اما آن روز بسیار فراتر از افق پیش بینی ما است.
حال در این مرحله، به نظرتان منطقی است که بپرسیم، داشتن چیزی که وب را دوباره بیان میکند چه فایده ای دارد؟ مگر اینکه ما برای همیشه دسترسی خود را به اینترنت از دست میدادیم و مجبور بودیم یک کپی را روی یک سرور خصوصی با فضای محدود ذخیره کنیم، در آن حالت یک مدل زبانی بزرگ مانند ChatGPT ممکن بود راهحل خوبی باشد، با این فرض که میتوان از ساختن مجدد متون و چیزهای موجود در وب جلوگیری کرد. اما ما دسترسی خود را به اینترنت از دست نمی دهیم. بنابراین، در حالی که هنوز نسخه اصلی را دارید، یکJPEG کدر از وب چقدر کاربرد دارد؟
عمرانی، سیدابراهیم «ChatGPT یک JPEG کدر و تار از وب است ! ! ! !: تکملهای بر سخن هفته: آیا دوران کتابداران به سر رسیده است؟». سخن هفته لیزنا، شماره ۶۳۱، ۴ اسفندماه 1401.
۱. از توهین به افراد، قومیتها و نژادها خودداری کرده و از تمسخر دیگران بپرهیزید و از اتهامزنی به دیگران خودداری نمائید.
۲.از آنجا که پیامها با نام شما منتشر خواهد شد، بهتر است با ارسال نام واقعی و ایمیل خود لیزنا را در شکل دهی بهتر بحث یاری نمایید.
۳. از به کار بردن نام افراد (حقیقی یا حقوقی)، سازمانها، نهادهای عمومی و خصوصی خودداری فرمائید.
۴. از ارسال پیام های تکراری که دیگر مخاطبان آن را ارسال کرده اند خودداری نمائید.
۵. حتی الامکان از ارسال مطالب با زبانی غیر از فارسی خودداری نمائید.